1 Introduction

Dans le monde, on compte plus de 800 millions de personnes vivant à proximité d’un volcan dont 200 millions à moins de 30 km d’un volcan actif (CNRS, 2025). La caractérisation de l’aléa volcanique est donc essentielle pour la sureté des habitants en territoires volcaniques. Cela passe notamment par la compréhension de lien divers entre un volcan et le type de dépôts ou l’intensité éruptive qu’il produit. Notre étude se concentre sur la région méditerranéenne, en particulier sur deux édifices grecs et quatre édifices italiens, ces deux pays étant particulièrement connues pour leurs volcanismes très actifs et notamment plusieurs éruptions historiques. Les volcans italiens sont l’Etna (Sicile, Italie), le Vésuve (Naples, sud de l’Italie), Lipari et Vulcano (Iles Eoliennes, Sicile, Italie). Les volcans grecques sont le Santorin et le Nisyros (Iles Dodecanese, Grèce). Ici nous ne nous concentrerons que sur la période 2015 à 2025.

Nous avons les données de magnitudes, types de magma, profondeur du magma, le VEI, la classification et le volume estimé de produits pour chaque édifice volcanique en plus des coordonnées des éruptions pour chaque édifices. L’objectif est de comprendre si il existe un lien entre intensité de l’éruption (magnitude) et l’édifice volcanique afin de déterminer quelle population s’expose à un risque plus important. Il sera aussi particulièrement intéressant de regarder le lien possible entre volcans et type de magma car le risques lié à un volcan est en partie du au type de matériaux qu’il produit. Ces résultats pourrait également nous permettre de déterminer si les populations d’un volcan en particulier s’exposent à un risque accrue. Enfin, d’un point de vus purement recherche nous allons nous intéressé au lien entre édifice et profondeur du magma car c’est grâce à la détection du magma en profondeur que l’on peut anticiper une éruption. Egalement à la profondeur en fonction du type de magma mais cela nous permettra, au terme d’une étude pétrologique ultérieure de prédire des temps de remonté du magma et des durées pré-éruptifs afin d’alerter la population en cas d’éruption imminente si ce lien existe.

2 Analyse exploiratoire des données

2.1 Chargement et préparation des données

## Warning: le package 'ggplot2' a été compilé avec la version R 4.3.3
## Warning: le package 'tidyr' a été compilé avec la version R 4.3.3
## Warning: le package 'performance' a été compilé avec la version R 4.3.3
## Warning: le package 'car' a été compilé avec la version R 4.3.3
## Warning: le package 'carData' a été compilé avec la version R 4.3.3
## Warning: le package 'maps' a été compilé avec la version R 4.3.3
## Warning: le package 'sf' a été compilé avec la version R 4.3.3
## Warning: le package 'prettymapr' a été compilé avec la version R 4.3.3
## Warning: le package 'rnaturalearthdata' a été compilé avec la version R 4.3.3
## Warning: le package 'viridis' a été compilé avec la version R 4.3.3
## Warning: le package 'patchwork' a été compilé avec la version R 4.3.3
## Warning: le package 'geosphere' a été compilé avec la version R 4.3.3
## Warning: le package 'reshape2' a été compilé avec la version R 4.3.3
## Warning: le package 'cowplot' a été compilé avec la version R 4.3.3
## Warning: le package 'factoextra' a été compilé avec la version R 4.3.3
## Warning: le package 'FactoMineR' a été compilé avec la version R 4.3.3
## Warning: le package 'plotly' a été compilé avec la version R 4.3.3
## Warning: le package 'PerformanceAnalytics' a été compilé avec la version R
## 4.3.3
## Warning: le package 'xts' a été compilé avec la version R 4.3.3
## Warning: le package 'zoo' a été compilé avec la version R 4.3.3
## Warning: le package 'ade4' a été compilé avec la version R 4.3.3
## Warning: le package 'pheatmap' a été compilé avec la version R 4.3.3
## Warning: le package 'ggsci' a été compilé avec la version R 4.3.3
## 'data.frame':    47 obs. of  14 variables:
##  $ Volcanoes       : chr  "Santorin" "Santorin" "Santorin" "Santorin" ...
##  $ Event.ID        : int  11946380 11933823 11933599 11933364 11405253 10724958 10878280 10813622 10813590 10757351 ...
##  $ Date            : chr  "12-02-25" "09-02-25" "09-02-25" "08-02-25" ...
##  $ Time            : chr  "08:37:47" "18:53:57" "01:35:15" "09:24:02" ...
##  $ Latitude        : num  36.4 36.4 36.5 36.4 36.4 ...
##  $ Longitude       : num  25.5 25.5 25.5 25.5 25.5 ...
##  $ Depth           : num  10 10 10 10 10 10 17.6 3.3 0 3.8 ...
##  $ Mag.Type        : chr  "MA" "MA" "MA" "MA" ...
##  $ Magnitude       : num  4.3 4.7 4.5 4.6 4.2 4.2 1.4 1.3 1.2 1.9 ...
##  $ Volume          : num  7.98e+07 2.00e+08 1.26e+08 1.59e+08 6.34e+07 ...
##  $ VEI.approximatif: int  3 3 3 3 3 3 1 1 1 1 ...
##  $ Region          : chr  "DODECANESE ISLANDS" "DODECANESE ISLANDS" "DODECANESE ISLANDS" "DODECANESE ISLANDS" ...
##  $ Country         : chr  "GREECE" "GREECE" "GREECE" "GREECE" ...
##  $ Classification  : chr  "Vulcanien" "Vulcanien" "Vulcanien" "Vulcanien" ...
##     Volcanoes      Event.ID      Date               Time          
##  Etna    : 7   10796353: 2   Length:47          Length:47         
##  Lipari  : 9   11629587: 2   Class :character   Class :character  
##  Nisyros :11   5112637 : 1   Mode  :character   Mode  :character  
##  Santorin:13   5149922 : 1                                        
##  Vesuvio : 1   10570434: 1                                        
##  Vulcano : 6   10570525: 1                                        
##                (Other) :39                                        
##     Latitude       Longitude         Depth         Mag.Type    Magnitude   
##  Min.   :36.32   Min.   :14.49   Min.   :  0.00   MA   :14   Min.   :1.20  
##  1st Qu.:36.45   1st Qu.:14.96   1st Qu.:  7.20   MB   :19   1st Qu.:1.80  
##  Median :36.67   Median :25.39   Median : 10.00   MB-MA: 3   Median :2.30  
##  Mean   :37.40   Mean   :20.70   Mean   : 27.57   MBa  : 1   Mean   :2.76  
##  3rd Qu.:38.39   3rd Qu.:25.51   3rd Qu.: 14.91   ML   : 9   3rd Qu.:4.20  
##  Max.   :40.79   Max.   :27.25   Max.   :225.42   MR   : 1   Max.   :5.30  
##                                                                            
##      Volume          VEI.approximatif                Region     Country  
##  Min.   :    63396   1:24             DODECANESE ISLANDS:24    ITALY:23  
##  1st Qu.:   252383   2: 9             SICILY            :22   GREECE:24  
##  Median :   798105   3:13             SOUTHERN          : 1              
##  Mean   : 50123635   4: 1                                                
##  3rd Qu.: 63395728                                                       
##  Max.   :798104926                                                       
##                                                                          
##                Classification
##  Hawaien/Strombolien  :24    
##  Strombolien/Vulcanien: 9    
##  Vulcanien            :13    
##  Vulcanien/Plinien    : 1    
##                              
##                              
## 

## 'data.frame':    22 obs. of  14 variables:
##  $ Volcanoes       : Factor w/ 6 levels "Etna","Lipari",..: 1 1 1 1 1 1 5 6 6 6 ...
##  $ Event.ID        : Factor w/ 45 levels "5112637","5149922",..: 31 30 29 28 35 36 17 41 24 21 ...
##  $ Date            : chr  "17-08-15" "12-08-15" "12-08-15" "12-08-15" ...
##  $ Time            : chr  "02:18:26" "11:41:46" "11:35:53" "03:56:14" ...
##  $ Latitude        : num  37.7 37.8 37.8 37.8 37.7 ...
##  $ Longitude       : num  15.1 15 15 15 15.1 ...
##  $ Depth           : num  7.2 29.9 28.6 30 10 ...
##  $ Mag.Type        : Factor w/ 6 levels "MA","MB","MB-MA",..: 2 2 2 2 1 1 2 1 2 2 ...
##  $ Magnitude       : num  1.5 1.4 1.5 1.5 4.3 1.8 2.2 4.4 1.3 1.2 ...
##  $ Volume          : num  126491 100475 126491 126491 79810493 ...
##  $ VEI.approximatif: Factor w/ 4 levels "1","2","3","4": 1 1 1 1 3 1 1 3 1 1 ...
##  $ Region          : Factor w/ 3 levels "DODECANESE ISLANDS",..: 2 2 2 2 2 2 3 2 2 2 ...
##  $ Country         : Factor w/ 2 levels " ITALY","GREECE": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Classification  : Factor w/ 4 levels "Hawaien/Strombolien",..: 1 1 1 1 3 1 1 3 1 1 ...
## 'data.frame':    24 obs. of  14 variables:
##  $ Volcanoes       : Factor w/ 6 levels "Etna","Lipari",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Event.ID        : Factor w/ 45 levels "5112637","5149922",..: 45 44 43 42 38 16 33 23 22 18 ...
##  $ Date            : chr  "12-02-25" "09-02-25" "09-02-25" "08-02-25" ...
##  $ Time            : chr  "08:37:47" "18:53:57" "01:35:15" "09:24:02" ...
##  $ Latitude        : num  36.4 36.4 36.5 36.4 36.4 ...
##  $ Longitude       : num  25.5 25.5 25.5 25.5 25.5 ...
##  $ Depth           : num  10 10 10 10 10 10 17.6 3.3 0 3.8 ...
##  $ Mag.Type        : Factor w/ 6 levels "MA","MB","MB-MA",..: 1 1 1 1 1 1 5 5 5 5 ...
##  $ Magnitude       : num  4.3 4.7 4.5 4.6 4.2 4.2 1.4 1.3 1.2 1.9 ...
##  $ Volume          : num  7.98e+07 2.00e+08 1.26e+08 1.59e+08 6.34e+07 ...
##  $ VEI.approximatif: Factor w/ 4 levels "1","2","3","4": 3 3 3 3 3 3 1 1 1 1 ...
##  $ Region          : Factor w/ 3 levels "DODECANESE ISLANDS",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Country         : Factor w/ 2 levels " ITALY","GREECE": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Classification  : Factor w/ 4 levels "Hawaien/Strombolien",..: 3 3 3 3 3 3 1 1 1 1 ...

2.2 Calcule des paramètres de dispersions

##       Group  Variable                Variance            Mean
## 1    Global     Depth              2683.43422        27.56902
## 2    Global Magnitude                 1.56159         2.75957
## 3    Global    Volume 15973504288128854.00000  50123634.88617
## 4  Santorin     Depth                23.21269         7.44615
## 5  Santorin Magnitude                 2.25859         2.87692
## 6  Santorin    Volume  4908889462161985.00000  53385265.08462
## 7      Etna     Depth               130.90810        19.41429
## 8      Etna Magnitude                 1.07333         2.00000
## 9      Etna    Volume   905672258098802.00000  11563260.61857
## 10  Vesuvio     Depth                      NA         0.50000
## 11  Vesuvio Magnitude                      NA         2.20000
## 12  Vesuvio    Volume                      NA    633957.28000
## 13  Vulcano     Depth                10.43741         9.28700
## 14  Vulcano Magnitude                 1.36967         2.21667
## 15  Vulcano    Volume  1669085589528357.50000  17084959.71833
## 16   Lipari     Depth              8245.75305        54.22689
## 17   Lipari Magnitude                 0.84000         2.90000
## 18   Lipari    Volume  1902945411863623.50000  23549175.67556
## 19  Nisyros     Depth              3726.96190        47.16182
## 20  Nisyros Magnitude                 1.45855         3.33636
## 21  Nisyros    Volume 57457175635148752.00000 115070297.50455

En moyenne, Lipari génère des magmas qui viennent de plus profond et le Santorin les plus superficiels. Nisyros est le volcan avec le plus grand volume de produit estimé en moyenne et Vulcano emet le moins sur une même période d’activité. La magnitude des éruptions est en moyenne plus importante pour Nisyros. Cela est cohérent car la magnitude est directement reliée au volume emis, plus le volume est important plus la magnitude le sera, hors Nisyros à le volume moyen le plus important donc la magnitude moyenne la plus importante. Cependant ce n’est pas Vulcano qui possède la plus faible moyenne des magnitudes mais l’Etna. Cela peut s’expliquer par le faite que l’Etna à plus érupter sur 2015-2025 par rapport à Vulcano pour un volume moyen de débris légèrement inférieur. La moyenne des magnitudes de l’Etna pourra donc être légèrement plus faible que celle de Vulcano.

Les valeurs de variance pour le volume et la magnitude sont ccohérentes par rapport au jeu de donné mais pour la profondeur, celles-ci sont beaucoup trop grande, cela s’explique par la présence d’outlier (7 point de donnée) de valeur beaucoup trop importante ou encore bien trop faibe qui donnent une dispersion des mesures exagérée.

On remarque qur pour le Vésuve nous n’avons qu’une seule éruption. Ainsi, nous ne pouvons pas calsuler de valeurs de dispersion et la profondeurs, la magnitude et le volume moyen seront les valeurs des données de l’éruption.

##        Depth    Magnitude       Volume 
## 5.180187e+01 1.249636e+00 1.263863e+08
##     Depth Magnitude    Volume 
## 1.8789885 0.4528366 2.5214917
## # A tibble: 6 × 6
##   Volcanoes mean_mag sd_mag min_mag max_mag median_mag
##   <fct>        <dbl>  <dbl>   <dbl>   <dbl>      <dbl>
## 1 Etna          2     1.04      1.4     4.3        1.5
## 2 Lipari        2.9   0.917     1.8     4.4        2.7
## 3 Nisyros       3.34  1.21      1.9     5.3        2.8
## 4 Santorin      2.88  1.50      1.2     4.7        1.9
## 5 Vesuvio       2.2  NA         2.2     2.2        2.2
## 6 Vulcano       2.22  1.17      1.2     4.4        2

Les volcans grecs porduisent une plus large d’éruption de magnitudes différentes que les volacans Italiens et se sont égalment eux qui produisent les éruptions les plus intenses avec Lipari. Cependant, il n’y pas de grande difference entre les différents paramètres de dispersion des les volcans.

3 Graphiques des analyses univariés

3.1 Analyse univariée de la profondeur

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning in scale_y_log10(): log-10 transformation introduced infinite values.
## log-10 transformation introduced infinite values.
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_summary()`).

Pour l’ensemble des volcans, hormis les 7 outliers visibles en rouge sur le boxplot, la répartition des rpofondeurs sur l’hitogramme est symétique par rapport à une valeur centrale de 10 km. La majorité de nos magmas proviennet donc de chambre localsiée entre 15 et 7 km ce qui reste relativement superficielle.

3.2 Analyse univariée de la magnitude

Le boxplot ne montre pas de valeur abérente. Cependant, l’histogramme des magnitudes montre une réputation bimodale des données. Une première partie des magnitudes se situe en dessous de 3, ce sont les valeurs de magnétudes faibles et une seconde partie se trouve au-dessus de 3 avec des valeurs dites fortes.

Maintenant on regarde les histogrammes pour chacuns des modes. Les fortes magnitudes ont une distribution sysmétrique qui s’articule autour d’une valeur centrale de 4,3 tands que les faibles magnitudes suivent aussi une distribution sysméetique autour de 1,8 mais reste moins marqué et s’étale dans l’intervalle 1 à 2,2.

3.3 Analyse univariée du type de magma

## Warning in geom_bar(binwidth = 0.2, fill = "lightyellow", color = "black", :
## Ignoring unknown parameters: `binwidth`

La majorité des magmas sont basaltique (MB) avec quelques occurences andésitique (MA) et latitique (ML=un magma latitique est un magma basaltique avec une texture particulière, il n’y a pas de différence de chimie importante). La série est basic et donc faiblement différencié. En effet il n’y a quaiment pas de magma différencié rhyolique (MR). La faible présence de basalte alcalin (MBa) révelle que les magmas générés appartiennen à la série subalcaline. Enfin, il se produit un petit peu de mélande car 3 magmas on uen composition intermédiaire entre basaltique et andésitique (MB-MA).

3.4 Analyse univariée du volume estimé

Pour les volumes estimés, on montrent également une répartition bimodale tres similaire à celle des magnitudes avec une valeur intermétidaiure entre les faibles et les forts volumes de 16,25 km3. Les forts volumes s’articulent autour d’un mode de 18,7 km3 et la faibles volume autoure de 12,5 km3 mais clea reste moins symétirque et forme plus un plateau. Les volumes estimés sont utilisés pour déterminer la magnitude de l’érution, il est donc logique qu’il suivent excatement la meme distibution pour l’hitogramme et le boxplot.

3.5 Analyse univariée du VEI estimé

## Warning in geom_bar(binwidth = 0.2, fill = "lightyellow", color = "black", :
## Ignoring unknown parameters: `binwidth`

Le VEI est une échelle de 1 à 8 donnant l’intensité d’une éruption volcanique (1 tres peu intense et 8 extremement intense). Dans la région, la majorité des éruptions sont de faible intensité avec un VEI autour de 1 et 2 (plus de 30 cas), VEI 1 étant majoritaire. On enregistre des éruption peu à moyennement intense (3 à 4), mais elles restent minoritaire. Il n’y a aucune éruption avec un VEI supérieure à 4, ce qui est rassurant puisque les grosses éruptions ont une occurences de plusieurs centaines d’année et sont donc difficilement visible sur une période de 10 ans.

4 Analyse bivariés

Cette analyse univarié a permis de déterminer l’allure de chacune des variables du jeu données. Il est a présent possible d’étudier des liens possibles entre ces différentes données.

4.1 Lien entre deux variables quantitatives

4.1.1 Lien entre la magnitude et la profondeur

Lorsque qur l’on regarde le graphique de la profondeur en fonction de la magnitude, cinq outlier sont visble ce qui confirme nos obeservation faites dans l’univariée avec des points de profondeur beaucoup trop importante. La deuxeme remaque est qu’il n’y a aucune corélation visible entre la profondeur et la magnétude. Nous allons quand même effectuer un test pour vérifeir notre hypothèse. Il n’est pas possible de faire une ANOVA car nous avons de variables quantitatives et l’ANOVA compare deux moyennes de deux goupres, hors ici nous cherchons à corréler deux varables. Nous effectuons donc un test de corrélagtion.

## [1] 0.3235965

On choist un test de corrélation de Spearman car les données ne sont pas distribuées normalement (voir histogramme). Il s’agit d’un test qui est dit non paramétrique. Ce ne sont pas les données en tant que telle qui sont utilisées mais leurs rangs.

Le coefficient de corrélation est de 0.32. C’est une corrélation positive mais la valuer reste faible car comprise entre 0.1 et 0.3 à plus ou moins 0.02, on a donc une faible corrélation entre la profondeur et la magnitude.

4.1.2 Lien entre magnitude et le volume estimé

## 
## Call:
## lm(formula = log(Volume) ~ Magnitude, data = df)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -4.066e-08 -2.747e-09  8.390e-10  2.393e-09  2.790e-08 
## 
## Coefficients:
##              Estimate Std. Error   t value Pr(>|t|)    
## (Intercept) 8.294e+00  4.917e-09 1.687e+09   <2e-16 ***
## Magnitude   2.303e+00  1.626e-09 1.416e+09   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.378e-08 on 45 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 2.005e+18 on 1 and 45 DF,  p-value: < 2.2e-16

Graphiquement, on observe une corrélation positive entre la magnitude et le volume estimé. En effet, plus la magnitude est importante plus le volume estimé l’est également. Le modèle linéaire confirme cette observation avec un R2 de 1 ce qui est très élevé. Cependant, il existe une realtion théorique entre volume estimé et magnitude. La magnitude est calculer à parit du volume estimée sur le terrain. Ils sont donc mathéatiquement reléi l’un à l’autre et cette correlétion poistive ne reflete en rien un lien naturel entre les deux varibale mais traduits une simple équation mathématiques.

4.1.3 Lien entre le volume et la profondeur

Une relation peut également être étudiée entre le volume estimé et la profondeur. Cependant, étant donné que le volume a été estimé à partir de la magnitude, les deux graphiques montrent exactement les mêmes tendances. Cette similitude se remarque également au niveau de la valeur du coefficient de corrélation de Spearman qui vaut 0.32.

## [1] 0.3235965

Il

4.2 Lien entre variable qualitative et quantitative

4.2.1 Magnitude en fonction des volcans

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé

On remarque à nouveau que pour le Vésuve, on ne peut interpréter car on a qu’une seule varleur. Plusieurs remarques sont possibles. Tout d’abords, les magnitudes par volcans sont dépendantes, sinon l’ensebles des médiane serait alignées.

De plus, la médiane et la moyenne ne coincident pas, ce qui témoignent d’une asymétries au niveau des distributions. Dans certains cas, les courbes de densité montrent également des bimodalités visibles.

Il est possible d’observer que certains groupes ont des distributions bimodal et non pas juste normal.

Si on veut observer une différence entre les volcans par rapport à la magnitude, on effectuer un test non-paramétrique. Un ANOVA ne fonctionnerait pas ici car nous n’avons une répartition normale de nos donnée de magnitude.

Il serait intéressant de savoir si il y a bien une différence significative entre ces différents volcans par rapport à la magnitude. Pour cela, le t.test ne fonctionne car celui-ci est pour des échantillons avec deux catégories dans cette étude, il y a six volcans différents. C’est donc une ANOVA qui va être réalisée.

L’ANOVA (Analysis of Variance) permet de comparer les moyennes de plusieurs groupes pour déterminer s’il existe des différences significatives entre elles. Cependant, pour que les résultats de l’ANOVA soient valides, certaines conditions doivent être remplies : 1. Indépendance des observations : Les données de chaque groupe doivent être indépendantes les unes des autres. 2. Normalité : La distribution des résidus (différences entre les valeurs observées et les valeurs prédites) doit suivre une distribution normale. 3. Homogénéité des variances : Les variances des différents groupes doivent être similaires (homoscédasticité).

## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  21

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  5  1.2315  0.312
##       41
##             Df Sum Sq Mean Sq F value Pr(>F)
## Volcanoes    5  10.14   2.027   1.347  0.264
## Residuals   41  61.70   1.505

Le summary de l’ANOVA, donne une valeur de p-value de 0.264. Celle-ci n’est pas significative (p-value > 0.05), il n’y a donc pas de différence significative entre les volcans et les magnitudes.

4.2.2 Magnitude en fonction du type de magma

## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé

Il n’y a pas une distribution normale de la donnée. Certains des types de magmas ne présentent qu’une seul variable.

## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  43, 44

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  5  0.6567 0.6581
##       41
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Mag.Type     5  50.18  10.036      19 9.66e-10 ***
## Residuals   41  21.65   0.528                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

4.2.3 Profondeur en fonction des volcans

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé

Graphiquement, au niveau des boxplots il n’est pas possible d’observer une différence entre les différents types de magma

## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  38

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  1.5679  0.211
##       43

Les conditions de l’anova ne sont pas respectées, les résidus ne sont pas normalement distribués. Certaines des valerus atteignes presque la Cook distance. Il n’est ainsi pas possible de réaliser l’anova mais il est possible de réaliser un autre test qui lui est non paramétriques. Il s’agit du test Kruskall-walis

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Depth by Classification
## Kruskal-Wallis chi-squared = 8.028, df = 3, p-value = 0.04544

Le test de kruskal-wallis est signifcatif. Il faut préciser est sensible au différence de distributions donc si celles-ci sont fortement différentes comme c’est le cas ici il est possible qu’il n’y est pas uniquement une différence au niveau des médianes.

4.2.4 Profondeur en fonction du type de magma (à retirer)

## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé

## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  43, 44

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  5  0.3496 0.8796
##       41

Les conditions de l’anova ne sont pas respectées, il y a la présence de quatres outliers qui jouent un role important de levier.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Depth by Mag.Type
## Kruskal-Wallis chi-squared = 10.332, df = 5, p-value = 0.06634

le test de kruskal-wallis n’est pas significatif. Il n’y a donc pas de différence entre les profondeurs moyennes des différents types de magma.

4.2.5 Volume estimé en fonction des volcans (à retirer)

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_segment()`).
## Warning: Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): aucun argument pour max ; -Inf est renvoyé

## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique : 
##  21

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  5  1.2315  0.312
##       41

identique que la magnitude car directement extrapolé de ça

##             Df Sum Sq Mean Sq F value Pr(>F)
## Volcanoes    5   53.7  10.748   1.347  0.264
## Residuals   41  327.1   7.978

pas de différence significative entre les volumes moyens des différents volcans

4.3 Lien entre deux variables qualitatives

Dans cette partie de cette étude, c’est le lien entre les variables qualitatives qui va être étudié.

4.3.1 Répartition du VEI en fonction des volcans

Il est interessant d’analyser si il y a un lien entre le VEI et les volcans. Pour cela, on va réaliser un graphique de répartition du VEI en fonction des volcans. Il est possible d’observer que la majorité des éruptions ont un VEI compris entre 1 et 3. Nisyros est celui qui présente le VEI le plus haut.

Un autre point important qu’il faut soulever c’est que la plupart des volcans ont un VEI faible, entre 1 et 2 en majorité. Un test peut être réalisé afin de savoir si il y a un lien entre le VEI et les différents types de volcans. Il s’agit d’un test de Chi2. Pour pouvoir faire cela, il faut d’abord réaliser un tableau de contingence.

## Warning in chisq.test(tabVEI): L’approximation du Chi-2 est peut-être
## incorrecte
## 
##  Pearson's Chi-squared test
## 
## data:  tabVEI
## X-squared = 20.97, df = 15, p-value = 0.1378

Il s’agit d’un khi-deux pour tester l’indépendance entre deux variables qualitatives. Les hépytohèses : H0 : il n’y a pas de relation entre le VEI et les différents volcans. H1 : il y a une relation entre le VEI et les différents volcans.

Dans ce cas-ci, le test du chi 2 est significatif car p-valeur > 0.05. Cela veut dire qu’il n’y a pas de relation significatif entre le VEI et les volcans

4.3.2 Répartition du type de magma en fonction des volcans

Il est possible de voir que MA et MB sont les types de magmas les plus fréquents.

##           
##            MA MB MB-MA MBa ML MR
##   Etna      2  5     0   0  0  0
##   Lipari    2  7     0   0  0  0
##   Nisyros   3  1     3   1  2  1
##   Santorin  6  0     0   0  7  0
##   Vesuvio   0  1     0   0  0  0
##   Vulcano   1  5     0   0  0  0
## Warning in chisq.test(tab): L’approximation du Chi-2 est peut-être incorrecte
## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 47.268, df = 25, p-value = 0.004559

4.3.3 ACF

Une ACF est une analyse factorielle des correspondances. Cela permet d’analyser la relation entre deux variables qualitatives. Il est ainsi important qu’il est la présence d’une relation entre les deux. C’est pour cela que l’AFC est réalisé à partir des variables Volcanoes et Mag.Type.

Le but de l’AFC est de réduire la dimensionnalité des données tout en gardant l’écart d’indépendance entre les variables.

Afin de pouvoir savoir le nombres d’axes qu’il faut retenir, un scree plot est réalisé. Celui-ci permet d’observer que ce sont bien les deux premiers axes qui contiennent toute l’information (~99%).

Il est également intéressant de regarder quelles variables contribuents le plus à quels axes

4.3.4 Répartition du type de magma en fonction des classifications

Comme pour le graphique précédent, il faut réaliser un test chi-deux pour savoir si il est pertinant ou non de faire une AFC

## Warning in chisq.test(tabmg): L’approximation du Chi-2 est peut-être incorrecte
## 
##  Pearson's Chi-squared test
## 
## data:  tabmg
## X-squared = 51.032, df = 15, p-value = 8.156e-06

5 Analyse multivariée

5.1 Représentation graphiques

5.1.1 Répartition du type de magma selon le volcan et la classification

5.1.2 Répartitio de la magnitude en fonction de la profondeur et des volcans

5.2 ACM

## ACP Pas énormément de pertinence étant donnée qu’il n’y a que 3 variables

## List of 13
##  $ tab :'data.frame':    47 obs. of  3 variables:
##   ..$ Depth    : num [1:47] -0.343 -0.343 -0.343 -0.343 -0.343 ...
##   ..$ Magnitude: num [1:47] 1.25 1.57 1.41 1.49 1.17 ...
##   ..$ Volume   : num [1:47] 0.237 1.202 0.611 0.873 0.106 ...
##  $ cw  : num [1:3] 1 1 1
##  $ lw  : num [1:47] 0.0213 0.0213 0.0213 0.0213 0.0213 ...
##  $ eig : num [1:3] 1.744 0.943 0.313
##  $ rank: int 3
##  $ nf  : int 3
##  $ c1  :'data.frame':    3 obs. of  3 variables:
##   ..$ CS1: num [1:3] -0.347 -0.691 -0.634
##   ..$ CS2: num [1:3] 0.904 -0.0666 -0.4224
##   ..$ CS3: num [1:3] 0.25 -0.719 0.648
##  $ li  :'data.frame':    47 obs. of  3 variables:
##   ..$ Axis1: num [1:47] -0.893 -1.728 -1.241 -1.463 -0.754 ...
##   ..$ Axis2: num [1:47] -0.493 -0.922 -0.662 -0.778 -0.432 ...
##   ..$ Axis3: num [1:47] -0.828 -0.435 -0.703 -0.591 -0.855 ...
##  $ co  :'data.frame':    3 obs. of  3 variables:
##   ..$ Comp1: num [1:3] -0.458 -0.913 -0.837
##   ..$ Comp2: num [1:3] 0.8778 -0.0646 -0.4101
##   ..$ Comp3: num [1:3] 0.14 -0.402 0.363
##  $ l1  :'data.frame':    47 obs. of  3 variables:
##   ..$ RS1: num [1:47] -0.676 -1.309 -0.94 -1.108 -0.571 ...
##   ..$ RS2: num [1:47] -0.508 -0.95 -0.681 -0.801 -0.445 ...
##   ..$ RS3: num [1:47] -1.481 -0.778 -1.256 -1.057 -1.529 ...
##  $ call: language dudi.pca(df = df_num, scannf = FALSE, nf = ncol(df_acp))
##  $ cent: Named num [1:3] 2.76e+01 2.76 5.01e+07
##   ..- attr(*, "names")= chr [1:3] "Depth" "Magnitude" "Volume"
##  $ norm: Named num [1:3] 5.12e+01 1.24 1.25e+08
##   ..- attr(*, "names")= chr [1:3] "Depth" "Magnitude" "Volume"
##  - attr(*, "class")= chr [1:2] "pca" "dudi"
## Class: pca dudi
## Call: dudi.pca(df = df_num, scannf = FALSE, nf = ncol(df_acp))
## 
## Total inertia: 3
## 
## Eigenvalues:
##     Ax1     Ax2     Ax3 
##  1.7443  0.9428  0.3128 
## 
## Projected inertia (%):
##     Ax1     Ax2     Ax3 
##   58.14   31.43   10.43 
## 
## Cumulative projected inertia (%):
##     Ax1   Ax1:2   Ax1:3 
##   58.14   89.57  100.00
## [1] 3

# Equation logistique multinomiale

## # weights:  18 (10 variable)
## initial  value 84.212695 
## iter  10 value 46.628048
## iter  20 value 43.825916
## iter  30 value 43.782381
## iter  40 value 43.777747
## final  value 43.777738 
## converged
## # weights:  24 (15 variable)
## initial  value 84.212695 
## iter  10 value 58.183881
## iter  20 value 40.829368
## iter  30 value 39.174485
## iter  40 value 38.803877
## iter  50 value 38.033323
## iter  60 value 37.175656
## iter  70 value 37.002697
## iter  80 value 36.995105
## iter  80 value 36.995104
## final  value 36.995103 
## converged
## # weights:  30 (20 variable)
## initial  value 84.212695 
## iter  10 value 66.936296
## iter  20 value 42.534523
## iter  30 value 36.799665
## iter  40 value 35.978994
## iter  50 value 35.795664
## iter  60 value 35.695288
## iter  70 value 35.683543
## iter  80 value 35.681671
## iter  80 value 35.681671
## iter  90 value 35.681042
## iter  90 value 35.681042
## final  value 35.681041 
## converged
## Call:
## multinom(formula = Mag.Type ~ Magnitude, data = df)
## 
## Coefficients:
##       (Intercept)  Magnitude
## MB      7.9791331 -2.3808021
## MB-MA   5.1613275 -1.9561389
## MBa     4.5040789 -2.1427666
## ML     10.0892443 -3.8848339
## MR     -0.3276988 -0.5635537
## 
## Std. Errors:
##       (Intercept) Magnitude
## MB       2.310111 0.6654632
## MB-MA    2.681323 0.8353120
## MBa      3.698775 1.3561103
## ML       2.864594 1.1264971
## MR       4.679710 1.1559406
## 
## Residual Deviance: 87.55548 
## AIC: 107.5555
## Call:
## multinom(formula = Mag.Type ~ Magnitude + Volume, data = df)
## 
## Coefficients:
##       (Intercept) Magnitude        Volume
## MB       7.401465 -2.234865  3.179331e-09
## MB-MA   -6.772634  3.899192 -1.466192e-06
## MBa    -28.203600 16.288105 -1.030399e-05
## ML       5.849504 -1.189251 -2.378357e-06
## MR     -42.213343 14.455785 -3.827594e-07
## 
## Std. Errors:
##        (Intercept)    Magnitude       Volume
## MB    1.887545e-12 4.092203e-12 3.343892e-09
## MB-MA 2.633999e-13 6.293499e-13 3.937788e-07
## MBa   1.524227e-12 3.511470e-12 1.298389e-06
## ML    1.439821e-12 2.976019e-12 9.211112e-07
## MR    4.391267e-15 1.270691e-14 5.397798e-08
## 
## Residual Deviance: 73.99021 
## AIC: 103.9902

Le problème est le suivant, les écarts types sont beaucoup trop petits. Le modèle va donc sur estimé les coefficients des classes qui ne sont pas du tout supperposée. Même si il y a un petit chevauchement, les classes extrêmes sont parfaitement séparés, c’est un cas de sépration quasi-complètes

## Call:
## multinom(formula = Mag.Type ~ Magnitude + Volume + Depth, data = df)
## 
## Coefficients:
##       (Intercept)  Magnitude        Volume        Depth
## MB       9.779586 -3.2175327  6.998216e-09  0.014501386
## MB-MA    3.105365 -0.8405317 -1.491643e-07  0.006557366
## MBa      3.883101 -1.1650574 -7.204142e-07 -0.057922265
## ML      12.915233 -4.5042055 -5.604711e-07 -0.107984702
## MR     -17.592455  5.4514757 -1.849723e-07  0.024109062
## 
## Std. Errors:
##        (Intercept)    Magnitude       Volume        Depth
## MB    9.455184e-13 2.091317e-12 3.123000e-09 8.595129e-12
## MB-MA 1.500088e-13 3.580221e-13 2.822823e-07 1.994950e-12
## MBa   6.425951e-13 1.587894e-12 9.500639e-07 5.318407e-12
## ML    9.907638e-13 2.145424e-12 8.213435e-07 7.583608e-12
## MR    7.023510e-15 1.980056e-14 3.763402e-08 2.055269e-13
## 
## Residual Deviance: 71.36208 
## AIC: 111.3621
## # weights:  18 (10 variable)
## initial  value 84.212695 
## iter  10 value 73.493847
## iter  20 value 73.392324
## iter  20 value 73.392323
## iter  20 value 73.392323
## final  value 73.392323 
## converged
## # weights:  24 (15 variable)
## initial  value 84.212695 
## iter  10 value 72.032811
## iter  20 value 66.154712
## iter  30 value 64.222258
## iter  40 value 63.352309
## iter  50 value 61.914800
## iter  60 value 61.854424
## final  value 61.854220 
## converged
## # weights:  30 (20 variable)
## initial  value 84.212695 
## iter  10 value 77.149481
## iter  20 value 68.892467
## iter  20 value 68.892467
## iter  30 value 66.588175
## iter  40 value 61.388685
## iter  50 value 59.169584
## iter  60 value 58.948808
## iter  70 value 58.946386
## iter  80 value 58.945997
## final  value 58.945920 
## converged
## Call:
## multinom(formula = Volcanoes ~ Magnitude, data = df)
## 
## Coefficients:
##          (Intercept) Magnitude
## Lipari     -1.727460 0.8304696
## Nisyros    -2.388697 1.1069601
## Santorin   -1.316179 0.8153867
## Vesuvio    -2.502658 0.2658910
## Vulcano    -0.751356 0.2842475
## 
## Std. Errors:
##          (Intercept) Magnitude
## Lipari      1.365340 0.5634052
## Nisyros     1.389314 0.5564331
## Santorin    1.279180 0.5432557
## Vesuvio     2.732954 1.1606852
## Vulcano     1.460465 0.6435445
## 
## Residual Deviance: 146.7846 
## AIC: 166.7846
## Call:
## multinom(formula = Volcanoes ~ Magnitude + Depth, data = df)
## 
## Coefficients:
##           (Intercept)  Magnitude         Depth
## Lipari    -1.62911858  0.6859990   0.007765020
## Nisyros   -2.36151020  1.0450550   0.004131336
## Santorin   0.25281932  1.0198837  -0.222490154
## Vesuvio  -54.81191047 38.3276758 -30.214586538
## Vulcano    0.06722019  0.3246761  -0.076240470
## 
## Std. Errors:
##           (Intercept)    Magnitude        Depth
## Lipari   1.366649e+00 0.5889084503 1.407657e-02
## Nisyros  1.385689e+00 0.5730876585 1.411167e-02
## Santorin 1.437868e+00 0.5967029277 1.168977e-01
## Vesuvio  7.811958e-05 0.0001022174 4.397617e-06
## Vulcano  1.650759e+00 0.6638357135 7.364973e-02
## 
## Residual Deviance: 123.7084 
## AIC: 153.7084
## Call:
## multinom(formula = Volcanoes ~ Magnitude + Depth + Volume, data = df)
## 
## Coefficients:
##          (Intercept)  Magnitude        Depth        Volume
## Lipari    -3.9364329  1.8814804  0.005999006 -3.401437e-08
## Nisyros   -1.7004383  0.7471163  0.005119559  1.954442e-09
## Santorin   0.2418836  1.2338850 -0.277966093 -3.263410e-09
## Vesuvio  -32.8117830 21.0934835 -5.169065923 -1.053318e-06
## Vulcano    0.1227154  0.3568609 -0.084041162 -1.791268e-09
## 
## Std. Errors:
##           (Intercept)    Magnitude        Depth       Volume
## Lipari   1.342974e-16 5.715474e-16 8.771503e-15 1.144768e-08
## Nisyros  3.828643e-17 1.578499e-16 4.666461e-15 7.372347e-09
## Santorin 2.539544e-17 1.116800e-16 2.693747e-16 7.569380e-09
## Vesuvio  1.339155e-21 2.695431e-21 1.400279e-21 6.989576e-16
## Vulcano  4.449231e-17 2.014909e-16 4.507306e-16 9.903441e-09
## 
## Residual Deviance: 117.8918 
## AIC: 157.8918

6 Clustering

##   Group.1    Volume    Depth Magnitude
## 1       1 798104926  5.47000  5.300000
## 2       2 204033567 54.10000  4.700000
## 3       3  89117804 46.76740  4.330000
## 4       4   1649308 20.00909  2.030303